带有图像级标签的弱监督语义分割(WSSS)是一项重要且具有挑战性的任务。由于高训练效率,WSS的端到端解决方案受到了社区的越来越多的关注。但是,当前方法主要基于卷积神经网络,无法正确探索全局信息,因此通常会导致不完整的对象区域。在本文中,为了解决上述问题,我们介绍了自然整合全局信息的变形金刚,以生成更具不可或缺的初始伪标签,以用于端到端WSSS。由变压器中的自我注意力与语义亲和力之间的固有一致性激发,我们提出了来自注意力(AFA)模块的亲和力,以从变形金刚中的多头自我注意力(MHSA)学习语义亲和力。然后将学习的亲和力借用以完善初始伪标签以进行分割。此外,为了有效地得出可靠的亲和力标签,用于监督AFA并确保伪标签的局部一致性,我们设计了一个像素自适应改进模块,该模块结合了低级图像外观信息,以完善伪标签。我们进行了广泛的实验,我们的方法在Pascal VOC 2012和MS Coco 2014数据集中获得了66.0%和38.9%的MIOU,大大优于最近的端到端方法和几个多阶段竞争对手。代码可在https://github.com/rulixiang/afa上找到。
translated by 谷歌翻译
With the rapid development of information technologies, centralized data processing is subject to many limitations, such as computational overheads, communication delays, and data privacy leakage. Decentralized data processing over networked terminal nodes becomes an important technology in the era of big data. Dictionary learning is a powerful representation learning method to exploit the low-dimensional structure from the high-dimensional data. By exploiting the low-dimensional structure, the storage and the processing overhead of data can be effectively reduced. In this paper, we propose a novel decentralized complete dictionary learning algorithm, which is based on $\ell^{4}$-norm maximization. Compared with existing decentralized dictionary learning algorithms, comprehensive numerical experiments show that the novel algorithm has significant advantages in terms of per-iteration computational complexity, communication cost, and convergence rate in many scenarios. Moreover, a rigorous theoretical analysis shows that the dictionaries learned by the proposed algorithm can converge to the one learned by a centralized dictionary learning algorithm at a linear rate with high probability under certain conditions.
translated by 谷歌翻译
电子设计自动化(EDA)社区一直在积极探索非常大规模的计算机辅助设计(VLSI CAD)的机器学习。许多研究探索了基于学习的技术,用于设计流中的跨阶段预测任务,以实现更快的设计收敛。尽管建筑机器学习(ML)模型通常需要大量数据,但由于缺乏大型公共数据集,大多数研究只能生成小型内部数据集进行验证。在本文中,我们介绍了第一个用于机器学习任务的开源数据集,称为CircuitNet。该数据集由基于6种开源RISC-V设计的商业设计工具的多功能运行中提取的10K以上样品组成。
translated by 谷歌翻译
强化学习(RL)为可以在现实世界中自主互动的培训代理提供了潜力。但是,一个关键限制是RL算法对核心超参数和网络体系结构选择的脆弱性。此外,诸如不断发展的训练数据和增加的代理复杂性等非平稳性意味着不同的超参数和体系结构在不同的训练点上可能是最佳的。这激发了Autorl,这是一种试图自动化这些设计选择的方法。一类突出的Autorl方法是基于人群的培训(PBT),这在几个大型设置中导致了令人印象深刻的表现。在本文中,我们介绍了PBT式方法中的两项新创新。首先,我们采用基于信任区域的贝叶斯优化,从而可以全面覆盖高维混合参数搜索空间。其次,我们表明,使用世代相传,我们还可以在一次训练中共同学习体系结构和超参数。利用新的高度可行的Brax物理引擎,我们表明这些创新导致了巨大的性能增长,在即时学习整个配置的同时,大大优于调谐基线。代码可在https://github.com/xingchenwan/bgpbt上找到。
translated by 谷歌翻译
我们的目标是为阿里巴巴业务的每个用户和每个产品项目建立一般代表性(嵌入),包括淘宝和Tmall,这是世界上最大的电子商务网站之一。用户和项目的代表性在各种下游应用程序中发挥着关键作用,包括建议系统,搜索,营销,需求预测等。受到自然语言处理(NLP)域中的BERT模型的启发,我们提出了GUIM(与代表的混合物混合在一起)的GUIM(一般用户项目),以实现大量,结构化的多模式数据,包括数亿美元的相互作用用户和项目。我们利用表示(MOR)的混合物作为一种新颖的表示形式来建模每个用户的各种兴趣。此外,我们使用对比度学习中的Infonce,以避免由于众多词汇的大小(令牌)词汇大小,因此避免了棘手的计算成本。最后,我们建议一组代表性的下游任务作为标准基准,以评估学到的用户和/或项目嵌入的质量,类似于NLP域中的胶合基准。我们在这些下游任务中的实验结果清楚地表明了从GUIM模型中学到的嵌入的比较价值。
translated by 谷歌翻译
尽管通过自学意识到,基于多层感知的方法在形状和颜色恢复方面取得了令人鼓舞的结果,但在学习深层隐式表面表示方面通常会遭受沉重的计算成本。由于渲染每个像素需要一个向前的网络推断,因此合成整个图像是非常密集的。为了应对这些挑战,我们提出了一种有效的粗到精细方法,以从本文中从多视图中恢复纹理网格。具体而言,采用可区分的泊松求解器来表示对象的形状,该求解器能够产生拓扑 - 敏捷和水密表面。为了说明深度信息,我们通过最小化渲染网格与多视图立体声预测深度之间的差异来优化形状几何形状。与形状和颜色的隐式神经表示相反,我们引入了一种基于物理的逆渲染方案,以共同估计环境照明和对象的反射率,该方案能够实时呈现高分辨率图像。重建的网格的质地是从可学习的密集纹理网格中插值的。我们已经对几个多视图立体数据集进行了广泛的实验,其有希望的结果证明了我们提出的方法的功效。该代码可在https://github.com/l1346792580123/diff上找到。
translated by 谷歌翻译
关于现实生活知识图(KGS)的多跳上推理是一个高度挑战的问题,因为传统的子图匹配方法无法处理噪音和缺失信息。为了解决这个问题,最近已经引入了一种有希望的方法,该方法基于将逻辑查询和kgs共同嵌入到一个低维空间中以识别答案实体。但是,现有的提案忽略了KGS中固有可用的关键语义知识,例如类型信息。为了利用类型信息,我们提出了一种新颖的类型感知消息传递(TEMP)模型,该模型可以增强查询中的实体和关系表示形式,并同时改善概括,演绎和归纳推理。值得注意的是,Temp是一种插件模型,可以轻松地将其纳入现有的基于嵌入的模型中以提高其性能。在三个现实世界数据集上进行了广泛的实验证明了温度的有效性。
translated by 谷歌翻译
ELO评级系统被广泛采用来评估(国际象棋)游戏和体育运动者的技能。最近,它还集成到了评估计算机化AI代理的性能时的机器学习算法中。然而,精确估计ELO评级(对于顶级球员)通常需要许多轮竞争,这可能是昂贵的。在本文中,为了提高ELO评估的样本效率(对于顶级球员),我们提出了一种有效的在线匹配调度算法。具体而言,我们通过Dueling Birits框架识别并匹配顶级播放器并将强盗算法定制到ELO的梯度更新。我们表明它减少了每一步记忆和时间复杂度来恒定,与需要$ O(t)$时间的传统似然最大化方法相比。我们的算法对$ \ tilde {o}(\ sqrt {t})$,Sublinear在竞争回合的数量中有遗憾的保证,并且已经扩展到多维ELO评级,用于处理风情游戏。我们经验证明我们的方法在各种游戏任务上实现了卓越的收敛速度和时间效率。
translated by 谷歌翻译
虽然现代自动语音识别(ASR)系统可以实现高性能,但它们可能会产生削弱读者体验并对下游任务造成伤害的错误。为了提高ASR假设的准确性和可靠性,我们提出了一种用于语音识别器的跨模型后处理系统,其中1)熔断来自不同方式的声学特征和文本特征,2)接合置信度估计器和多个误差校正器任务学习时尚和3)统一纠错和话语抑制模块。与单模或单任务模型相比,我们提出的系统被证明更有效和高效。实验结果表明,我们的后处理系统导致对工业ASR系统的单扬声器和多扬声器语音相对降低的10%相对减少,每个令牌约为1.7ms延迟确保在流语音识别中可以接受后处理引入的额外延迟。
translated by 谷歌翻译
神经结构搜索(NAS)的成功受到过度计算要求的限制。虽然现代重量共享NAS方法,例如飞镖在单位数GPU天中可以完成搜索,但从共享权重中提取最终的最佳架构是众所周知的不可靠性。培训 - 速度估计(TSE),最近开发的普遍开发的普遍估计,以贝叶斯边缘似然解释的用来代替飞镖基于梯度优化的验证损失。这可以防止飞镖跳过连接崩溃,这显着提高了NASBench-201和原始飞镖搜索空间的性能。我们通过应用各种飞镖诊断来扩展这些结果,并显示不使用验证集产生的几种不寻常的行为。此外,我们的实验产生了在与操作选择相比,尽管通常在文献中受到有限的关注,但仍会产生对搜索性能的强烈影响的深度间隙和拓扑选择的具体示例。
translated by 谷歌翻译